Day4 - [Web] robots.txt - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 4

佛心分享-刷題不只是刷題

新手村預備，CTF 小菜雞跌跌撞撞的旅程系列第 4 篇

Day4 - [Web] robots.txt

16th鐵人賽

wonwoo

2024-09-18 23:17:05

493 瀏覽

分享至

小小知識

什麼是 robots.txt？
robots.txt 是一個放在網站根目錄中的簡單文本檔案，用於指導網路爬蟲（如 Googlebot）哪些頁面應該抓取，哪些頁面應被忽略。當爬蟲拜訪一個網站時，它會先讀取該網站的 robots.txt，然後根據檔案內的規則行動。

為什麼要使用 robots.txt？
1. 控制爬蟲行為：可以告訴爬蟲不要索引特定的頁面或資料夾，例如不必要的管理後台或測試頁面。這有助於節省伺服器資源，也能避免讓不相關或敏感的內容出現在搜索引擎結果中。
2. 優化網站效能：如果一個網站有大量的頁面，並且不希望爬蟲花費資源在無用的內容上，robots.txt 可以有效優化網頁索引的效率。

以下是一個常見的 robots.txt 範例：

User-agent: *
Disallow: /admin/
Disallow: /private/

User-agent: *：適用於所有的網路爬蟲。
Disallow: /admin/：阻止爬蟲抓取網站上的 /admin/ 資料夾。
這樣可以防止這些資料夾中的頁面出現在搜索結果中，但這些頁面仍然可以被人手動輸入 URL 訪問。因此如果試圖「隱藏」敏感資料，這可能反而會暴露出敏感的路徑。因此如果該頁面具有敏感資料，應採取更嚴格的措施，例如身份驗證或伺服器端的存取控制。

那進入今天的第一題~